home *** CD-ROM | disk | FTP | other *** search
/ Technotools / Technotools (Chestnut CD-ROM)(1993).ISO / lang_c / cug231 / lex.c < prev    next >
Text File  |  1987-06-17  |  6KB  |  275 lines

  1. /*
  2.     Little Smalltalk lexical analyzer for driver
  3.         timothy a. budd 12/84
  4. */
  5. /*
  6.     The source code for the Little Smalltalk System may be freely
  7.     copied provided that the source of all files is acknowledged
  8.     and that this condition is copied with each file.
  9.  
  10.     The Little Smalltalk System is distributed without responsibility
  11.     for the performance of the program and without any guarantee of
  12.     maintenance.
  13.  
  14.     All questions concerning Little Smalltalk should be addressed to:
  15.  
  16.         Professor Tim Budd
  17.         Department of Computer Science
  18.         Oregon State University
  19.         Corvallis, Oregon
  20.         97331
  21.         USA
  22. */
  23. # include <stdio.h>
  24. # include <ctype.h>
  25. # include <math.h>
  26. # define DRIVECODE
  27. # include "drive.h"
  28.  
  29. # define MAXTOKEN 100
  30. char toktext[MAXTOKEN];
  31. tok_type t;
  32. enum lextokens token;
  33.  
  34. extern char *lexptr;
  35. extern double atof();
  36.  
  37. static char ocbuf = 0;
  38. static int pbbuf[20];
  39.  
  40. # define input() (ocbuf ? pbbuf[--ocbuf] : *lexptr++ )
  41. # define putbak(c) (pbbuf[ocbuf++] = c)
  42.  
  43. static char *psuvars[] = {"nil", "true", "false", "smalltalk", 0};
  44. static enum pseuvars psuval[] = {nilvar, truevar, falsevar, smallvar};
  45. static char symbols[] = "\n-()[]!|.;>" ;
  46. static enum lextokens symval[] = {NL, MINUS, LP, RP, LB, RB, BAR, BAR,
  47.     PERIOD, SEMI, PE};
  48.  
  49. static enum lextokens lexsave(type)
  50. enum lextokens type;
  51. {    char *w_search();
  52.  
  53.     if (! (t.c = w_search(toktext, 1)))
  54.         lexerr("cannot create symbol %s", toktext);
  55.     /* assign token, and return value */
  56.     return(token = type);
  57. }
  58.  
  59. enum lextokens nextlex() {
  60.     register char c;
  61.     register char *p;
  62.     char *q;
  63.     int  i, n, base;
  64.     double d, denom;
  65.  
  66.     do {            /* read whitespace (including comments) */
  67.         c = input();
  68.         if (c == '\"') {
  69.             while ((c = input()) && c != '\"') ;
  70.             if (c == '\"') c = input();
  71.             else lexerr("unterminated comment", "");
  72.             }
  73.         } while (c == ' ' || c == '\t') ;
  74.  
  75.     if (!c) return(token = nothing);
  76.  
  77.     p = toktext;
  78.     *p = c;
  79.     toktext[1] = '\0';
  80.  
  81.                         /* identifiers and keywords */
  82.     if (( c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z')) {
  83.         for (*p++ = c; (c = input()) && isalnum(c) ; *p++ = c) ;
  84.         *p = '\0';
  85.         lexsave(0);
  86.         if (c == ':') {
  87.             return(token = KEYWORD);
  88.             }
  89.         else {
  90.             putbak(c);
  91.             if (islower(toktext[0])) {
  92.                 for (i = 0; psuvars[i]; i++)
  93.                     if (strcmp(toktext, psuvars[i]) == 0) {
  94.                         t.p = psuval[i];
  95.                         return(token = PSEUDO);
  96.                         }
  97.                 return(token = LOWERCASEVAR);
  98.                 }
  99.             else {
  100.                 return(token = UPPERCASEVAR);
  101.                 }
  102.             }
  103.         }
  104.     
  105. # define scandigits(x) for(*p++ = c; (c = input()) && isdigit(c) ; *p++ = c) x
  106.  
  107.     if (c >= '0' && c <= '9') {        /* numbers */
  108.         i = c - '0';
  109.         scandigits( i = 10 * i + (c - '0') );
  110.         if (c == '.' || c == 'e') {
  111.             if (c == '.')
  112.                 scandigits();
  113.             if (c == 'e') {
  114.                 *p++ = c;
  115.                 c = input();
  116.                 if (c == '+' || c == '-') {
  117.                     *p++ = c; c = input(); }
  118.                 scandigits();
  119.                 }
  120.             putbak(c);
  121.             *p = '\0';
  122.             t.f = atof(toktext);
  123.             return(token = LITFNUM);
  124.             }
  125.         else if ((c == 'r') && ((i >= 2) && (i <= 36))) {
  126.             base = i;
  127.             i = 0;
  128.             for (*p++ = c; c = input(); *p++ = c) {
  129.                 if (isdigit(c)) n = c - '0';
  130.                 else if (isupper(c)) n = (c - 'A') + 10;
  131.                 else break;
  132.                 if (n >= base) break;
  133.                 i = base * i + n;
  134.                 }
  135.             if (c == '.' || c == 'e') {
  136.                 d = (double) i;
  137.                 if (c == '.') {
  138.                     denom = 1.0 / (double) base;
  139.                     for (*p++ = c; c = input(); *p++ = c) {
  140.                         if (isdigit(c))
  141.                             n = c - '0';
  142.                         else if (isupper(c))
  143.                             n = (c - 'A') + 10;
  144.                         else break;
  145.                         if (n >= base) break;
  146.                         d += n * denom;
  147.                         denom /= base;
  148.                         }
  149.                     }
  150.                 if (c == 'e') {
  151.                     *p++ = c;
  152.                     c = input();
  153.                     if (c == '+' || c == '-') {
  154.                         n = c;
  155.                         *p++ = c;
  156.                         c = input();
  157.                         }
  158.                     else n = 0;
  159.                     i = c - '0';
  160.                     scandigits(i = 10 * i + (c - '0'));
  161.                     if (n == '-') i = - i;
  162.                     d *= pow((double) base, (double) i);
  163.                     }
  164.                 putbak(c);
  165.                 *p = '\0';
  166.                 t.f = d;
  167.                 return(token = LITFNUM);
  168.                 }
  169.             }
  170.         putbak(c);
  171.         *p = '\0';
  172.         t.i = i;
  173.         return(token = LITNUM);
  174.         }
  175.  
  176.     if (c == '#') {                /* symbol */
  177.         i = 1;
  178.         while (i)
  179.             switch(c = input()) {
  180.                 case '\0': case ' ': case '\t': case '\n':
  181.                 case '(': case '[': case ')':
  182.                     putbak(c);
  183.                     i = 0;
  184.                     break;
  185.                 default:
  186.                     *p++ = c;
  187.                 }
  188.         if (p == toktext)
  189.             return(token = PS);
  190.         else {
  191.             *p = '\0';
  192.             if ((p - toktext) >= MAXTOKEN) cant_happen(18);
  193.             return(lexsave(LITSYM));
  194.             }
  195.         }
  196.  
  197.     if (c == '\'') {            /* quoted string */
  198.         do {
  199.             for ( ; (c = input()) && c != '\'' ; *p++ = c) ;
  200.             c = input();
  201.             if (c == '\'') *p++ = '\'';
  202.             } while (c == '\'');
  203.         putbak(c);
  204.         *p = '\0';
  205.         if ((p - toktext) >= MAXTOKEN) cant_happen(18);
  206.         t.c = toktext;
  207.         return(token = LITSTR);
  208.         }
  209.  
  210.     if (c == ':') {                /* colon or argument name */
  211.         c = input();
  212.         if (c == '=')
  213.             return(token = ASSIGN);
  214.         else if (isalnum(c)) {
  215.             for (*p++ = c; isalnum(c = input()); *p++ = c );
  216.             putbak(c);
  217.             *p = '\0';
  218.             return(lexsave(COLONVAR));
  219.             }
  220.         putbak(c);
  221.         return(lexsave(BINARY));
  222.         }
  223.  
  224.     if (c == '<') {            /* assign, less than or primitive */
  225.         *p++ = c; *p = '\0';
  226.         c = input();
  227.         if (c == '-')
  228.             return(token = ASSIGN);
  229.         for (p = q = "primitive"; *p && *p == c; p++)
  230.             c = input();
  231.         putbak(c);
  232.         if (*p) {
  233.             for (p--; p >= q; p--) putbak(*p);
  234.             return(lexsave(BINARY));
  235.             }
  236.         else
  237.             return(token = PRIMITIVE);
  238.         }
  239.  
  240.     if (c == '.') {            /* number or period */
  241.         c = input();
  242.         if (c >= '0' && c <= '9') {
  243.             putbak(c);        /* reparse with digit */
  244.             putbak('.');        /* inserted on front */
  245.             putbak('0');        /* so it looks like */
  246.             return(nextlex());    /* a number */
  247.             }
  248.         putbak(c);
  249.         return(token = PERIOD);
  250.         }
  251.  
  252.     if (c == '\\') {        /* binary or hidden newline */
  253.         c = input();
  254.         if (c == '\n')
  255.             return(nextlex());
  256.         putbak(c);
  257.         return(lexsave(BINARY));
  258.         }
  259.  
  260.     if (c == '$') {            /* literal character or binary */
  261.         c = input();
  262.         if (c) {
  263.             t.i = c;
  264.             return(token = LITCHAR);
  265.             }
  266.         return(lexsave(BINARY));
  267.         }
  268.  
  269.     for (i = 0; symbols[i]; i++)
  270.         if (c == symbols[i])
  271.             return(lexsave(symval[i]));
  272.  
  273.     return(lexsave(BINARY));
  274. }
  275.